为什么中国的参与必不可少？我参加首届全球人工智能安全峰会的所见所思（万字回顾）

谢旻希三思派 2023-12-13

导读

11月1日，首届全球人工智能安全峰会在英国布莱切利园拉开帷幕。包括中国、美国在内的28个国家和欧盟，共同签署了《布莱切利人工智能安全宣言》，一致认为人工智能对人类构成了潜在的灾难性风险。峰会第一天邀请了超过100名政府、企业、学界、智库、民间的代表参与。我国科技部、外交部的政府代表和来自中国科学院、阿里巴巴、腾讯和安远AI (Concordia AI)的专家代表受邀参会。国内外的众多媒体对本次会议进行了报道，毫无疑问本届会议是人工智能安全领域的一次重要会议。

我作为安远AI的代表，受邀全程参会并在一些环节参与了讨论，介绍了我和我同事的研究成果。尤其是在峰会第一天闭幕全体大会环节，我受英国科学、创新和技术大臣米歇尔·唐兰的邀请，还分享了当天的总结和感触。参加本次大会收获颇丰，也感悟很多。感谢三思派约稿，在这个平台上更加详细地分享我参会的一些观察和思考。

本文分为五个主要章节，包括：

一、前沿人工智能安全成为全球议题的背景
二、全球人工智能安全峰会的主要成果
三、中国在管控人工智能风险的全球对话中不可或缺
四、我作为受邀专家参与的圆桌讨论和闭幕分享
五、对中方支持《布莱切利宣言》的五点展望和建议

01
前沿人工智能安全成为全球议题的背景

在举行首届全球人工智能安全峰会前半年，国际机构和领袖已开始关注人工智能可能带给人类社会的灾难性风险，2023年7月，联合国安理会举行了首次讨论人工智能安全的会议，秘书长古特雷斯在会上表示，如果我们不采取行动应对生成式人工智能的创造者们警告的“可能是灾难性的或生存性的”风险，那么我们就“疏忽了对现在和未来世代应承担的责任”。2023年9月，欧盟委员会在社交媒体上表示，“防范AI的生存风险应成为全球优先议题。”

管控人工智能的安全风险迫在眉睫，模型能力在未来几年内仍存在数量级进步的空间。谷歌的下一代大模型Gemini已开始在TPUv5 Pod上进行训练，算力高达~1e26 FLOPS，是训练GPT-4的5倍。Inflection在未来18个月内将用比当前前沿模型GPT-4大100倍的计算能力。Anthropic预计在未来的5年里用于训练最大模型的计算量将增加约1000倍。

各国人工智能科学家呼吁采取国际合作应对人工智能的重大风险。在峰会前两周，图灵奖获得者Yoshua Bengio、姚期智院士、张亚勤院士和Stuart Russell联合召集了中美英加欧20多位顶尖AI专家线下齐聚英国牛津，签署了一份联合声明：呼吁“在人工智能安全研究与治理上的全球协同行动，是避免不受控制的前沿人工智能发展为全人类带来不可容忍的风险的关键。”

在这个背景下，英国政府希望在全球人工智能安全和风险管控发挥领导作用。英国首相苏纳克称，英国不仅是全球人工智能的思想发源地(intellectual home)，而且要做人工智能安全监管的政策实践地 (geographical home)。目前英国有以下有利因素和进展：第一，英国在人工智能领域排名世界第三，仅次于美国和中国；第二，英国政府获得谷歌DeepMind、OpenAI和Anthropic前沿人工智能模型的优先访问权，用于安全研究和评测；第三，英国政府成立 "前沿人工智能工作组“ (Frontier AI Taskforce)，拨款约1亿英镑，工作组的核心目标是为政府内部的人工智能研究人员提供与OpenAI等领先公司相同的资源来促进人工智能安全研究；第四，英国分析师认为，英国有能力推广一种不同于欧盟和美国的监管模式，这种模式既不会像欧盟那样过于严厉，又比美国的任何框架都更加严格。

02
全球人工智能安全峰会的主要成果

首届人工智能安全峰会在二战期间英国的密码破译中心——布莱切利园进行。根据英国政府，会议主要围绕五个目标展开讨论，相应的重要成果包括：

第一，对前沿人工智能带来的风险和采取行动的必要性达成共识。包括中国、美国在内的28个国家和欧盟，共同签署了《布莱切利人工智能安全宣言》（Bletchley Declaration）。根据《宣言》内容，与会国一致认为，人工智能已经部署在日常生活的许多领域，在为人类带来巨大的全球机遇的同时还带来了重大风险。《宣言》写道，“潜在的故意滥用或与人类意图对齐有关的意外控制问题可能会带来巨大风险。出现这些问题的部分原因是人们对这些能力还不完全了解，因此难以预测。我们尤其关注网络安全和生物技术等领域的此类风险，以及前沿人工智能系统可能放大虚假信息等风险的情况。这些人工智能模型最重要的能力有可能造成严重甚至灾难性的伤害。”

峰会聚焦前沿人工智能风险 (frontier AI risks)，包括处于当前能力前沿的通用人工智能模型，可能带来的技术滥用、失去控制等风险；也包括具有危险能力的专用人工智能模型，例如生物工程领域人工智能模型可能被用于开发生物武器等。可以参考安远AI在峰会前一周在博鳌经安论坛发布的《前沿大模型的风险、安全与治理》报告的深入分析。

第二，为国际前沿人工智能安全合作制定前瞻性进程，包括如何最好地支持国家框架和国际框架等。参加峰会的国家同意就前沿人工智能的能力和风险编写一份《人工智能科学现状报告》(State of Science Report)，作为非正式网络持续合作的一部分。峰会主办方英国政府已委托图灵奖获得者Yoshua Bengio担任报告起草小组主席。该小组将由出席峰会的各国代表组成的专家顾问团提供支持。该报告将对有关前沿人工智能的风险和能力的现有研究进行科学评估，并确定进一步研究的优先领域，为今后的人工智能安全工作提供依据，类似世界顶级的气候科学家共同撰写的联合国政府间气候变化专门委员会(IPCC)报告。

该报告的结论将为未来的全球人工智能安全峰会提供支持。韩国已同意在未来6个月内共同主办一次小型的线上全球人工智能安全峰会。此外，法国将在一年后主办下一次现场峰会。

第三，推动各相关组织采取适当措施，以加强前沿人工智能安全。峰会召开前，英国政府要求七家领先的人工智能公司 (亚马逊、Anthropic、谷歌DeepMind、Inflection、Meta、OpenAI、微软)，概述他们在人工智能安全的九个领域的政策：

1.负责任的能力扩展(Responsible Capability Scaling): 为组织扩展前沿人工智能系统能力提供了一个风险管理框架，使公司能够在更危险的人工智能风险发生前为其做准备。

2.模型评估和红队演练 (Model Evaluations and Red Teaming): 可以帮助评估人工智能模型带来的风险，并为有关模型的训练、保护和部署做出更明智的决定。

3.模型报告和信息共享 (Model Reporting and Information Sharing): 提高政府对前沿人工智能发展和部署的可见性，并使用户能够对如何使用人工智能系统做出明智的选择。

4.包括保护模型权重的安全控制措施 (Security Controls Including Securing Model Weights): 是人工智能系统安全的关键支撑。

5.漏洞报告结构 (Reporting Structure for Vulnerabilities): 使外部人员能够识别人工智能系统中的安全和安全问题。

6.人工智能生成内容的标识符 (Identifiers of AI-generated Material): 提供有关内容是否由人工智能生成或修改的额外信息，帮助防止虚假人工智能生成内容的产生和传播。

7.优先研究人工智能带来的风险 (Prioritizing Research on Risks Posed by AI): 将有助于识别和解决前沿人工智能带来的新兴风险。

8.预防和监控模型误用 (Preventing and Monitoring Model Misuse): 因为一旦部署，人工智能系统可能会被故意误用以产生有害结果。

9.数据输入控制和审计 (Data Input Controls and Audits): 可以帮助识别和删除可能增加其前沿人工智能系统所具有的危险能力及风险的训练数据。

同时，英国政府的前沿人工智能安全新兴流程补充了公司的安全政策，为前沿人工智能组织的安全政策提供了一个潜在的清单。这旨在对讨论做出初步贡献，并且需要定期更新。

第四，寻求人工智能安全研究的潜在合作领域，包括评估模型能力和制定新的治理标准。在峰会开幕式上，美国商务部长雷蒙多宣布建立美国人工智能安全研究所(US AI Safety Institute)，支持拜登签署的行政令赋予商务部的责任。该研究所将设在美国商务部内，具体隶属于该部的国家标准与技术研究院(NIST)。美国人工智能安全研究所将促进人工智能模型的安全性、安保性和测试标准的制定，制定认证人工智能生成内容的标准，并为研究人员提供测试环境来评估新兴的人工智能风险并解决已知的影响。

在峰会期间，英国首相苏纳克宣布成立负责评估前沿人工智能风险的英国人工智能安全研究所 (UK AI Safety Institute)。该研究所将在人工智能模型发布前后仔细测试所有风险，从偏见和错误信息等社会伤害，到比如人类完全失去对人工智能的控制等极端风险。英国政府已经同意与两个国际伙伴建立合作关系：与美国人工智能安全研究所以及新加坡政府合作开展人工智能安全测试。该研究所也希望和其他国家和国际机构（包括政策制定者、国际伙伴、私营公司、学术界、民间社会和公众之间）建立信息共享渠道。

根据白宫人工智能行政命令和英国政府文件，模型危险能力的评估包括化学、生物、放射、核(CBRN)风险、网络攻击，以及“人工智能通过欺骗或模糊手段逃避人类控制或监督”。

第五，探讨人工智能安全发展如何促进全球福祉。在峰会期间，英国政府宣布与加拿大政府、比尔和梅林达·盖茨基金会、美国政府以及各个非洲伙伴合作，筹集8000万英镑用于“人工智能为发展”计划，目标包括：帮助至少5个非洲国家在人工智能的全球讨论中具有全球影响力，包括在利用人工智能助力实现可持续发展目标方面；建立或扩大至少8个在非洲大学的负责任人工智能研究实验室；帮助至少10个国家制定负责任、公平和安全的人工智能健全监管框架。

成果与共识之外，峰会上的一个主要争论点是关于开源模型的风险和利弊。在峰会前一天，图灵奖得主杨立昆等1000多位人工智能从业者联合署名公开信，表示开放透明是确保人工智能安全的重要手段。公开信承认开源模型存在风险和漏洞，包括模型可能被恶意行为者滥用的风险。但整体而言，增加公众审查和独立研究使技术更安全。同时，Bengio等表达开源未来更强大模型的担忧，认为一旦发布带有危险能力的模型就无法收回，将打开网络攻击和生物技术的“潘多拉魔盒”。整体而言，峰会上的圆桌讨论呈现不同的态度，鼓励更多讨论以权衡风险和不同安全方案。

中国在管控人工智能风险的

全球对话中不可或缺

国际社会高度关注中国科技部和外交部参与会议。中国科技部副部长吴朝晖在11月1日举行的开幕式全体会议上发言，宣介中方提出的《全球人工智能治理倡议》。中方指出，人工智能治理攸关全人类命运，是世界各国面临的共同课题。发展人工智能，应当积极倡导以人为本，智能向善，加强技术风险管控，并在相互尊重、平等互利的原则基础上，鼓励各方协同共治，增强发展中国家在人工智能全球治理中的代表性和发言权，不断弥合智能鸿沟和治理能力差距。

中国作为在人工智能研发领先的国家之一，在应对人工智能风险和机遇的全球讨论中不可或缺。在峰会闭幕后，英国首相苏纳克与马斯克进行现场访谈。苏纳克称："有人说，我们甚至不应该邀请中国，还有人说，我们不可能与他们达成协议。两者都错了。一个真正意义上的人工智能安全策略必须从包括所有世界领先的人工智能大国开始。所有这些国家都签署了《布莱切利人工智能安全宣言》。" 马斯克表示赞同，“如果美国、英国和中国在安全上达成一致，那么这将是一件好事。让中国来这里我认为是必不可少的。如果他们不参与，这就毫无意义。” 美国顶尖智库卡内基国际和平研究院院长蒂诺·奎利亚尔对媒体表示，只有中国参会，才能证明这是一次真正的全球对话。可见各方对中国积极参与这次峰会都给予了高度的赞赏和认可。

我所在的安远AI，一直立志于向世界展示真实、立体、全面的中国人工智能安全现状。考虑到国际社会对中国在人工智能安全方面的立场和举措的了解仍有改善空间，我们在峰会前陆续发布相关英文解读。我们在9月1日撰文“Global AI Safety Summit: Possible Topics and China’s Relevance”，宣介中国与世界在人工智能安全的五大合作方向和机遇，与英国政府在9月4日宣布的五大目标不谋而合。在峰会举办前一周，我们发布全球首份《中国人工智能安全全景报告》，150多页的深度解读得到广泛关注和认可。

我作为中方专家之一

参与圆桌讨论和闭幕分享

我个人参加了峰会第一天的讨论。峰会第一天上午聚焦风险研判，包括：前沿人工智能误用对全球安全的风险；前沿人工智能能力不可预测的进步带来的风险；前沿人工智能失控的风险；前沿人工智能部署到社会带来的风险。

我参与“前沿人工智能的失控风险”的圆桌讨论，基于目前人工智能失控的科学不确定性，提出风险预警和具有中国特色的“底线思维”等观点。我发言的中文翻译如下：“未来人工智能失控的风险概率和时间存在很大不确定性，但不确定性并不意味着不采取行动。面对全球稳定和公共安全的重大风险，社会应该具备底线思维，凡事从最坏处准备，努力争取最好的结果。全球科学家和政策制定者可以监测“风险预警信号”，让我举三个例子：

1.大模型Agent的持续进步。比如大模型不再陷入循环，在长时推理和决策中有了进步。例如，清华大学的AgentBench可以评估大模型Agent面对广泛的实际挑战的表现。

2.人工智能系统自主复制的风险。比如编写语言模型蠕虫传播到其他网络系统的能力。完成许多这样的任务可能预示着未来人工智能系统具备在全球服务器网络中扩散并避开人类检测的可能性。这类似我们网络安全领域面临的计算机蠕虫问题。

3.人工智能系统的自我改进能力。例如，目前已经有利用人工智能生产训练数据集或在强化学习中向模型提供反馈的可能性。”

圆桌讨论的总结中表示“我们需要在安全环境下严格测试模型，并进一步研究失控风险的场景。”

第一天下午聚焦风险应对，包括：前沿人工智能开发者应该做什么来负责任地扩展能力；国家决策者应该如何应对人工智能的风险和机遇；国际社会应该如何应对人工智能的风险和机遇；科学界应该如何应对人工智能的风险和机遇圆桌会议。

我参与“前沿人工智能开发者应该做什么来负责任地扩展能力”圆桌讨论。在OpenAI、DeepMind和Anthropic的CEO分别汇报各自机构的Capability Scaling Policy后，我提出第三方评测、政府监管和全球民意等视角。发言的中文翻译如下：“我对在座各家企业迈出正确方向的初步措施表示赞赏，但我们必须加快强大的监管，使政策真正负责任。

第一，能力扩展政策(Capability Scaling Policy)最终应该受到政府监管。在公共安全问题上，我们不能让行业自己给自己打分。

第二，前沿开发者应该支持第三方评估生态系统的发展，特别是在缺乏建立专业知识的新领域。目前全球范围内有数百到数千的生物安全风险和网络风险专家，但是只有几个创业团队在进行欺骗对齐或自主复制能力的安全评测。

第三，我们需要全球监察的机制。随着公司在未来几年将AI系统扩大100-1000倍并可能增加全球生物风险，人工智能风险管理的重要性正在迅速接近与最高生物安全等级BSL-4实验室相匹配的风险水平，

最后，如果前沿开发者有朝一日能发展超级人工智能的时候，开发者必须倾听全球公众舆论：全人类是否已准备好历史上这样一个颠覆性的发展？”

圆桌讨论的总结中表示：“公司政策只是基线，不能替代政府制定标准和监管的需求。特别是，可信的外部第三方将需要提供标准化的基准测试。”

在峰会第一天闭幕全体大会环节，我受英国科学、创新和技术大臣米歇尔·唐兰邀请分享当天总结和感触，强调了以下三点：

首先，确保全球人工智能安全符合全世界的共同利益。来自人工智能的风险——从灾难性滥用、未知的危险能力，到潜在的人类控制力丧失——不会受到国界的约束。我们有集体责任来保护现在和未来的世代。

其次，国际合作将带来更多人工智能安全的进展。通过鼓励世界各地杰出研究人员之间的合作，我们可以想出更好的人工智能安全解决方案。随着各国制定人工智能治理框架,我们有一个黄金机会来交流经验和相互学习。我们应该共同努力建立国际机构来管治人工智能带来的风险和机遇。

第三，我们必须包括和赋权来自全球南方国家的声音。随着时间推移和人工智能能力的传播，全球人工智能治理体系的成功最终将取决于全世界的支持。前沿人工智能的发展将影响全人类未来，因此让每一个人都对这应该如何发展有发言权，在道德上也是正确的。

本文作者谢旻希在会议现场

对中方支持《布莱切利宣言》

的五点展望和建议

在中国已签署支持《布莱切利人工智能安全宣言》的基础上，我个人也有一些感想：

第一，对于在国内成立前沿人工智能安全测试机构的必要性和紧迫性，及时开展论证。目前英国和美国已各自建立人工智能安全研究所(UK & US AI Safety Institute)。新加坡政府今年也成立了类似的人工智能验证基金会 (AI Verify Foundation)。开展前沿人工智能安全测试符合我国《全球人工智能治理倡议》提出的“推动建立人工智能风险等级测试评估体系”“积极发展用于人工智能治理的相关技术开发与应用”等原则，应考虑实践落地的不同方式。

第二，对于前沿大模型的安全和治理最佳实践，积极开展研究和落地。峰会中讨论了AI安全级别(ASL)框架以应对潜在风险，参考了处理危险生物材料的生物安全级别(BSL)标准，基本思想是要求与模型潜在风险相适应的安全、安保和操作标准，更高的ASL级别需要越来越严格的安全证明。预计未来半年内，我国多个前沿大模型科研机构和企业将达到或突破GPT-4性能，达到ASL-2能力级别。确保相适应的安全标准，行业自律和政府监管缺一不可。

第三，对于分配更多研发资金用于人工智能安全研究，研判紧迫性和具体路径。在峰会前两周，三位图灵奖获得者、一位诺贝尔奖获得者、国内多位院士共同撰文《人工智能飞速进步时代的风险管理》并签署了一份联合声明，提出分配至少三分之一的人工智能研发资金用于确保人工智能系统的安全性和合乎伦理的使用。根据《中国人工智能安全全景报告》，中国在鲁棒性研究方面已进行了具有国际影响力的工作，对中文大模型的安全性评测也具有国际科研和政策意义。

第四，对于在联合国框架下成立国际人工智能治理机构，准备更具体的讨论方案。《全球人工智能治理倡议》表示积极支持在联合国框架下讨论成立国际人工智能治理机构，协调国际人工智能发展、安全与治理重大问题。下届人工智能安全峰会的联合东道主韩国总统尹锡悦也表态支持在联合国框架下成立国际机构。联合国高级别人工智能咨询机构的初步建议和2024年9月举办的联合国未来峰会都是关键窗口，需要对国际人工智能治理机构的设想有更具体和深入的方案。

第五，对于全球南方的可持续发展需求，我们必须在确保前沿人工智能安全的同时，力求实现兼顾。例如，呼应《全球安全倡议》向发展中国家提供一定的人工智能治理人才研修培训名额；推进金砖国家人工智能研究组；推动类似“鹏城·脑海”的项目，构建了一套涵盖中文、英文及50余个“一带一路”沿线国家及地区语种的多样化语料数据集和数据质量评估工具集，为对齐多元人类价值观做出贡献。

半个多世纪前，“现代计算机科学与人工智能之父”阿兰·图灵在布莱切利园发明了世界第一代图灵计算机。图灵曾在《计算机和智能》的结尾写道：“吾等目力短亦浅，能见百事待践行。” (We can only see a short distance ahead, but we can see plenty there that needs to be done.)

作者介绍：谢旻希，安远AI创始人。
致谢：感谢安远AI的同事们为本次会议做出的努力。感谢一同参会的国家新一代人工智能治理专委会委员曾毅教授给予的悉心指导。文章若存在任何错误或曲解，均由安远AI独自承担责任。

END

继续滑动看下一个

警察殴打打人学生，舆论撕裂的背后

骗P天花板？

大摩宏观策略谈：2025中美变局展望

沉浸式消耗补货！这15件妈见夸的平价宝贝，好用到我倒立爬行！

假设，你遇到麦琳怎么办？

为什么中国的参与必不可少？我参加首届全球人工智能安全峰会的所见所思（万字回顾）

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

骗P天花板？

大摩宏观策略谈：2025中美变局展望

沉浸式消耗补货！这15件妈见夸的平价宝贝，好用到我倒立爬行！

假设，你遇到麦琳怎么办？

生成图片，分享到微信朋友圈

为什么中国的参与必不可少？我参加首届全球人工智能安全峰会的所见所思（万字回顾）

您可能也对以下帖子感兴趣